利用核依賴估計來進行多軌自動混音 (Automatic Multi-track Mixing by Kernel Dependency Estimation)[In Chinese]

نویسندگان

  • Tsung-Ting Wu
  • Chia-Hui Chang
چکیده

Due to the revolution of digital music, people can create recordings in a home studio with cheaper gear. However multi-track recordings need to be mixed to combine them into one or more channels. The question is that mixing requires background knowledge in sound engineering and psychoacoustics. It is difficult to get good mixdown for non-specialist in sound engineer. In this paper, we use supervised learning method for automatically mixing multi-track recording into coherent and well-balanced piece. Due to lack of mixing parameters, first we estimate the weight of mixing parameters by using the relation between raw multi-track and mixdown. Given the mixing parameters for any music genre, we use kernel decency estimation method to create our mixing model. The experiment show KDE is 42 The 2014 Conference on Computational Linguistics and Speech Processing ROCLING 2014, pp. 42-57 © The Association for Computational Linguistics and Chinese Language Processing able to make a more satisfactory estimation than treating each parameter independently. 關鍵詞:核依賴估計,音樂資訊檢索,音樂製作,混音

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

透過語音特徵建構基於堆疊稀疏自編碼器演算法之婚姻治療中夫妻互動行為量表自動化評分系統(Automating Behavior Coding for Distressed Couples Interactions Based on Stacked Sparse Autoencoder Framework using Speech-acoustic Features)[In Chinese]

人與人之間交談互動,常透過語言傳達彼此的想法,並在這交談過程中得知雙方的行為 反應。利 用人為觀察來分析雙方行為反應,這種人為分析方式最早常應用在心理學和精神醫學方面 [2]。人 為行為觀察已經相當的成功用於研究親密關係 [3][4],因為夫妻的互動行為是影響親密關係程度的 重要因素之一。然而使用人為觀察行為的方式長年存在根本問題,一方面太消耗時間,另一 面也 主觀。 如果能透過電腦工程的方式來幫忙人為觀察將大大提升效率:即透過低層描述映射高層描 述來預測與分析人類行為 [5]。這項研究領域是一個新興的領域分。人類行為信號處理 (Behavioral Signal Processing, BSP)目的在幫助連接信號處理技術與行為分析的跨領域學科,建立在 傳統的信號 處理研究,如語音識別,面手部追蹤等等。相關顯著 BSP 研究已發產於以人為中心的提取音頻, 視頻信號,來分析高階人類行為...

متن کامل

Realizing Customizeable Animations in a Multi-user Virtual En- vironment using OSGi Framework

多人虛擬環境(Multi-user Virtual Environment) 系統的應用越來越多,而系統的延展性及內容的豐 富性是未來 3D 內容服務能否普及的關鍵之一。 IMNET 是一套具延展性的多人虛擬環境系統,可 在編譯或執行期間,整合不同的動畫元件模組,增 加 系 統 的 彈 性 [8] 。 使 用 者 可 以 透 過 XAML(eXtensible Animation Modeling Language)語 言的設計,產生虛擬角色的動畫;然而,對於高階 指令的實現,目前多僅能由系統提供有限的選擇, 而無法由使用者自行設計。本論文的目的在 IMNET 的平台上,設計一個能由使用者自行擴充動畫標籤 及實現此標籤之動畫元件的機制。當使用者開發一 個新的動作時,可以同時讓所有線上使用者接受動 作的擴充,而不需要重新啟動 IMNET 系統,或是 手動的安裝。本論文是以 OSGi F...

متن کامل

基於半監督式學習之廣播節目語音逐字稿自動轉寫系統 (Automatic Transcription of Broadcast Radio Speech Based on Quality Estimation-Guided Semi-Supervised Training) [In Chinese]

廣播節目製作時通常只有收錄語音訊號,沒有保留相對應的節目內容詮釋資料 (metadata),導致節目播出後,很難檢索節目內容,或是加以組織再利用。針對此問題, 常用的方法是以語音辨認器,自動轉寫廣播節目內容,產生語音逐字稿,但是目前缺乏 已標記好的廣播語音語料庫,因此無法訓練出適合轉寫廣播節目的語音辨識器。所以在 本論文中,我們探討如何同時使用語音訊號特徵參數、辨認器辨認結果與語言模型參數, 訓練一語音品質估算(Quality Estimation,QE)器,取代傳統只依賴語音辨認器的信心值 估算(Confidence Measure),從源源不絕,但未標記的大量廣播語料中,挑選適合訓練 語音辨認器的語料,進行半監督式聲學模型訓練,以提升轉寫廣播語料逐字稿的效能。 實驗中以一不佳錄音品質 NER-set1 與一優良 NER-set2 之廣播節目測試語料集,測試種 子語音辨認器與經半監...

متن کامل

利用聲學與文脈分析於多語語音辨識單元之產生 (Generation of Phonetic Units for Multilingual Speech Recognition Based on Acoustic and Contextual Analysis) [In Chinese]

摘要 由於全球化趨勢之盛行,多語語音常出現於會議紀錄及一般對話等方面。對於會議紀錄及對話系統而 言,多語語音自動辨識日顯重要。在多語語音自動辨識中,辨識單元集之定義及選取,將影響辨識之效率 及效能。本論文針對中英文利用 IPA 定義之多語語音辨識單元集,考慮前後文相關之三連音模型,並進一 步透過對聲學相似度與前後文脈分析,決定一組精簡有效的多語辨識單元。在相似度矩陣分析中,首先我 們利用事後機率統計,建立聲學相似度矩陣,然後,基於發音共聲現象的考量,分析語音發音上之相似度。 本論文更引入語言超空間相似度之觀念,計算三連音辨識單元前後文脈之關係,建立語言超空間相似度矩 陣。最後利用資料融合技術,合併聲學相似度矩陣和語言超空間相似度矩陣,以計算三連音辨識單元間之 距離,而後利用向量量化群集方法合併相似性高之三連音辨識單元,建立一個有效的多語語音辨識單元 集。本論文以 EAT 中英雙語語料...

متن کامل

結合HMM 頻譜模型與ANN 韻律模型之國語語音合成系統 (A Mandarin Speech Synthesis System Combining HMM Spectrum Model and ANN Prosody Model) [In Chinese]

本論文研究了一種結合 HMM (hidden Markov model)頻譜模型與 ANN (articifical neural network )韻律模型的國語語音合成系統。在訓練階段,對各個訓練語料音框算出 DCC係數(discrete cepstrum coefficients),以作為頻譜特徵參數,接著對於一種音節的多 個發音,依 DTW (dynamic time warping)匹配出的頻譜演進路徑作分群,各群建立一個 HMM,並記錄各音節發音的文依性資訊。在合成階段,首先依據文依性資訊挑選出輸 入文句各音節的 HMM模型,接著判定音節 HMM的各個狀態為無聲、或有聲,然後使 用音長 ANN模型及狀態平均音長來決定 HMM各狀態應該產生的音框數。除了前人提 出的MLE(maximum likelihood estimate)法,我們另外研究二種內插方法來產生各音框的 D...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2014